大數據的處理
圖為大數據技術棧
1. 數據的收集:
大量的離線收集是使用Hadoop,Hahoop是目前最多人使用的一個處理平台。而建立一個大數據收集瓶台必須要具備以下三點:
(1) 多樣化數據採集能力
(2) 可視化快速配置能力:提供人性化的介面設計,提高效率並降低成本
(3) 統一調度管控能力:可支援Hadoop的多種技術組件、關係型資料庫存儲過程、 shell腳本等、支援多種調度策略(時間/介面通知/手工)
2. 數據的儲存與管理
主要有3種技術,分別為結構化數據(例如:MySQL、Oracle)、半結構化和非結構化數據、結構化和非結構化混合的大數據。
(1) 結構化數據(Structured data):具有固定格式及明確定義的資料庫,優點是容易處理。
(2) 非結構化數據(Structured data):與結構化相反,簡單來說就是雜亂的資料。
(3) 半數據化結構(Semi-structured data):介於結構化與非結構化之間,並非每筆資料都有相同的欄位。
還有三個步驟,會在下一篇探討
資料來源:http://epaper.gotop.com.tw/PDFSample/ACD014000.pdf
https://bigdatafinance.tw/index.php/tech/440-6
http://www.finereport.com/tw/knowledge/acquire/whychooseit.html